Estimating the 6D pose of objects is one of the major fields in 3D computer vision. Since the promising outcomes from instance-level pose estimation, the research trends are heading towards category-level pose estimation for more practical application scenarios. However, unlike well-established instance-level pose datasets, available category-level datasets lack annotation quality and provided pose quantity. We propose the new category level 6D pose dataset HouseCat6D featuring 1) Multi-modality of Polarimetric RGB+P and Depth, 2) Highly diverse 194 objects of 10 household object categories including 2 photometrically challenging categories, 3) High-quality pose annotation with an error range of only 1.35 mm to 1.74 mm, 4) 41 large scale scenes with extensive viewpoint coverage, 5) Checkerboard-free environment throughout the entire scene. We also provide benchmark results of state-of-the-art category-level pose estimation networks.
translated by 谷歌翻译
表结构识别是文档图像分析域的关键部分。它的困难在于需要同时解析每个单元的物理坐标和逻辑指标。但是,现有的方法很难实现这两个目标,尤其是当表分裂线被模糊或倾斜时。在本文中,我们提出了一种基于端到端变压器的表面结构识别方法,称为信任。变压器由于其全局计算,完美的内存和并行计算而适合表结构识别。通过引入基于新型变压器基于查询的新型分裂模块和基于顶点的合并模块,表结构识别问题被脱钩到两个关节优化子任务中:多面向的表行/列分拆分和表格格里合并。基于查询的拆分模块通过变压器网络从长期依赖项中学习了强烈的上下文信息,准确预测了多个面向的表行/列分离器,并相应地获得了表的基本网格。基于顶点的合并模块能够在相邻的基本网格之间汇总局部上下文信息,从而能够合并准确属于同一跨越单元的基本束。我们对包括PubTabnet和Connthtable在内的几个流行基准进行实验,我们的方法实现了新的最新结果。特别是,信任在PubTabnet上以10 fps的速度运行,超过了先前的方法。
translated by 谷歌翻译
由于训练和测试分布之间的不匹配,自动语音识别(ASR)的跨域性能可能会受到严重阻碍。由于目标域通常缺乏标记的数据,并且在声学和语言水平上存在域移位,因此对ASR进行无监督的域适应性(UDA)是一项挑战。先前的工作表明,通过利用未标记的数据的自我检查,自我监督的学习(SSL)或伪标记(PL)可以有效地进行UDA。但是,这些自我介绍也面临不匹配的域分布中的性能退化,而以前的工作未能解决。这项工作提出了一个系统的UDA框架,可以在预训练和微调范式中充分利用具有自学贴标签的未标记数据。一方面,我们应用持续的预训练和数据重播技术来减轻SSL预训练模型的域不匹配。另一方面,我们提出了一种基于PL技术的域自适应微调方法,并具有三种独特的修改:首先,我们设计了一种双分支PL方法,以降低对错误的伪标签的敏感性;其次,我们设计了一种不确定性感知的置信度过滤策略,以提高伪标签的正确性。第三,我们引入了两步PL方法,以结合目标域语言知识,从而产生更准确的目标域伪标记。各种跨域场景的实验结果表明,所提出的方法可以有效地提高跨域的性能,并显着超过以前的方法。
translated by 谷歌翻译
具有联合学习(FL)的自动语音识别(ASR)使得在不损害隐私的情况下利用来自多个客户的数据。基于FL的ASR质量可以通过识别性能,沟通和计算成本来衡量。当不同客户之间的数据不是独立且分布相同的(非IID)时,性能可能会大大降低。在这项工作中,我们使用个性化的FL解决了基于FL的ASR中的非IID问题,该问题为每个客户学习个性化模型。具体而言,我们提出了两种类型的ASR个性化FL方法。首先,我们将基于个性化的FL适应ASR,该层在本地保留一些层以学习个性化模型。其次,为了降低沟通和计算成本,我们提出了脱钩的联合学习(Decouplefl)。一方面,DeCoupleFL将计算负担移至服务器,从而减少了客户端的计算。另一方面,Decouplefl传达安全的高级功能而不是模型参数,从而在模型大时降低通信成本。实验表明,与FedAvg相比,两种提出的基于FL的ASR方法可以将WER降低2.3%-3.4%。其中,与FedAvg相比,Decouplefl仅具有11.4%的通信和75%的计算成本,这也明显少于基于个性化的FL。
translated by 谷歌翻译
光有许多可以通过视觉传感器被动测量的特性。色带分离波长和强度可以说是单眼6D对象姿态估计的最常用的波长。本文探讨了互补偏振信息的互补信息,即光波振荡的方向,可以影响姿态预测的准确性。一种混合模型,利用数据驱动的学习策略共同利用物理代理,并在具有不同量的光度复杂度的物体上进行设计和仔细测试。我们的设计不仅显着提高了与光度 - 最先进的方法相关的姿态精度,而且还使对象姿势估计用于高反射性和透明的物体。
translated by 谷歌翻译
成功掌握对象的能力在机器人中是至关重要的,因为它可以实现多个交互式下游应用程序。为此,大多数方法要么计算兴趣对象的完整6D姿势,要么学习预测一组掌握点。虽然前一种方法对多个对象实例或类没有很好地扩展,但后者需要大的注释数据集,并且受到新几何形状的普遍性能力差的阻碍。为了克服这些缺点,我们建议教授一个机器人如何用简单而简短的人类示范掌握一个物体。因此,我们的方法既不需要许多注释图像,也不限于特定的几何形状。我们首先介绍了一个小型RGB-D图像,显示人对象交互。然后利用该序列来构建表示所描绘的交互的相关手和对象网格。随后,我们完成重建对象形状的缺失部分,并估计了场景中的重建和可见对象之间的相对变换。最后,我们从物体和人手之间的相对姿势转移a-prioriz知识,随着当前对象在场景中的估计到机器人的必要抓握指令。与丰田的人类支持机器人(HSR)在真实和合成环境中的详尽评估证明了我们所提出的方法的适用性及其优势与以前的方法相比。
translated by 谷歌翻译
自我监督的预训练可以有效地改善低资源自动语音识别(ASR)的性能。但是,现有的自我监督的预训练是任务不合时宜的,即可以应用于各种下游任务。尽管它扩大了其应用的范围,但预训练模型的容量并未完全用于ASR任务,并且学习的表示形式可能对ASR不最佳。在这项工作中,为了为低资源ASR构建更好的预训练模型,我们提出了一种称为WAV2VEC-S的预训练方法,我们使用特定于任务的半监督预培训来完善自我监督的预培训因此,ASR任务的预训练模型更有效地利用了预培训模型的能力来生成针对ASR的任务特定表示。实验表明,与WAV2VEC 2.0相比,WAV2VEC-S仅需要训练前时间的边际增长,但可以显着改善在内域,跨域和跨语言数据集上的ASR性能。 1H和10H微调分别为24.5%和6.6%。此外,我们表明,半监督的预训练可以通过规范相关分析来弥合自我监管的预训练模型与相应的微调模型之间的表示差距。
translated by 谷歌翻译
In recent years, applying deep learning (DL) to assess structural damages has gained growing popularity in vision-based structural health monitoring (SHM). However, both data deficiency and class-imbalance hinder the wide adoption of DL in practical applications of SHM. Common mitigation strategies include transfer learning, over-sampling, and under-sampling, yet these ad-hoc methods only provide limited performance boost that varies from one case to another. In this work, we introduce one variant of the Generative Adversarial Network (GAN), named the balanced semi-supervised GAN (BSS-GAN). It adopts the semi-supervised learning concept and applies balanced-batch sampling in training to resolve low-data and imbalanced-class problems. A series of computer experiments on concrete cracking and spalling classification were conducted under the low-data imbalanced-class regime with limited computing power. The results show that the BSS-GAN is able to achieve better damage detection in terms of recall and $F_\beta$ score than other conventional methods, indicating its state-of-the-art performance.
translated by 谷歌翻译
对话场景是语音处理技术最重要,最具挑战性的场景之一,因为对话中的人们以随意的方式相互反应。在对话中检测每个人的语音活动对于下游任务,例如自然语言处理,机器翻译等。人们指的是“何时说话”作为说话者诊断(SD)的检测技术。传统上,诊断错误率(DER)长期以来一直用作SD系统的标准评估度量。但是,der没有给简短的对话短语提供足够的重视,这在语义层面上很重要。此外,在语音社区中,仍然无法使用精心准确的手动测试数据集,适合评估对话性SD技术。在本文中,我们设计和描述了对话式短语扬声器诊断(CSSD)任务,该任务包括培训和测试数据集,评估指标和基线。在数据集方面,尽管先前开源的180小时对话魔术Data-RAMC数据集,但我们还准备了一个20小时的对话演讲测试数据集,并精心验证了CSSD任务的时间戳注释。在度量方面,我们设计了新的对话der(CDER)评估度量,该评估度量计算出语音级别的SD准确性。在基线方面,我们采用了一种常用的方法:变异贝叶斯HMM X-vector系统,作为CSSD任务的基线。我们的评估指标可在https://github.com/speechclub/cder_metric上公开获得。
translated by 谷歌翻译
快速扩大的神经网络模型在单个设备上运行越来越具有挑战性。因此,在多个设备上的模型并行性对于确保训练大型模型的效率至关重要。最近的建议在长时间处理时间或性能差。因此,我们提出了Celeritas,这是一个快速的框架,用于优化大型型号的设备放置。Celeritas在标准评估中采用简单但有效的模型并行化策略,并通过一系列调度算法生成位置策略。我们进行实验以在许多大型模型上部署和评估Celeritas。结果表明,与大多数高级方法相比,Celeritas不仅将放置策略生成时间减少26.4 \%,而且还将模型运行时间提高了34.2 \%。
translated by 谷歌翻译